Публикации с тэгом "Document Object Model"
СТАТЬЯ Методы защиты контента от автоматического копирования и парсинга
Эта статья написана Сычевым Игорем (@SychevIgor) с моими комментариями и уточнениями. Есть несколько сотен сайтов с информацией о банкоматах и отделениях. Необходимо написать программу, с помощью которой можно создать собственную базу данных. Задача не настолько сложная по сравнению с задачей сбора этих данных вручную. Но иногда вашей задачей может стать защита данных от автоматического копирования (краулинга). Собственно об этом и поговорим в этой статье. Работа с DOM деревом Любой HTML докумен...
СТАТЬЯ Извлечение данных из веб-ресурсов
Содержание серии статей под общим названием "Извлечение данных из веб-ресурсов". Введение 1. Форматы представления данных в вебе XML, RDF / OWL / SPARQL, RSS / Atom / OPML. (ASP.NET RSS Toolkit) Формат CSV Формат JSON Формат OData 2. Подходы к извлечению данных из веб-ресурсов Семантические элементы HTML5 Регулярные выражения и парсинг XML, aнализ DOM дерева, визуальный подход 3. User Agents Введение Война браузеров или Что делает "Mozilla" в Internet Explorer User Agent? User Agent Style Sheets...
СТАТЬЯ Знакомимся с Data Extracting SDK. Часть 1
Data Extracting SDK – независимая разработка, которая позволяет создавать приложения для извлечения, анализа и сохранения данных. Также может быть использована для написания собственных поисковых роботов и инстументов для работы с большими объемами данными. Data Extracting SDK использует библиотеку Microsoft.mshtml для получения DOM-дерева HTML страницы и информации об HTML элементах. Страница на codeplex: http://extracting.codeplex.com/ (последняя версия, о которой идет речь в статье, скоро буд...
СТАТЬЯ Internet Explorer 9 Beta: новые возможности для разработчиков
Совсем недавно стала доступна последняя версия браузера Internet Explorer 9 Beta, которая вызвала большой ажиотаж у многих разработчиков, дизайнеров и верстальщиков. В статье предлагается расширенный обзор новых возможностей. Внешний вид Графический интерфейс стал более аскетичным и не перегруженным. Правда, UI не написан на WPF, как этого многие ожидали. В общем смотрим сами: Внешний вид IE9 Новый JavaScript движок: Chakra Эти результаты были получены для Dell Optiplex (3.0 GHz Core 2 Duo Intel...
СТАТЬЯ Подходы к извлечению данных из веб-ресурсов
В предыдущей статье мы рассмотрели основные понятия и термины в рамках технологии Data Mining. Сегодня более детально остановимся на Web Mining и подходах к извлечению данных из веб-ресурсов. Web Mining — это процесс извлечения данных из веб-ресурсов, который, как правило, имеет больше практическую составляющую нежели теоретическую. Основная цель Web Mining — это сбор данных (парсинг) с последующим сохранением в нужном формате. Фактически, задача сводится к написанию HTML парсеров, и как раз об ...
СТАТЬЯ Улучшения JavaScript Intellisense в VS 2010
Это двадцатая статья из серии, которую я посвятил выходу VS 2010 и .NET 4. Сегодняшний пост охватывает некоторые замечательные улучшения, которые грядут в Intellisense у VS 2010 и бесплатной Visual Web Developer 2010 Express для JavaScript. Он стал быстрее загружаться с большими скриптовыми файлами и поддерживает завершение выражений для еще большего количества сценариев, по сравнению с предыдущими версиями Visual Studio. Улучшения в JavaScript Intellisense Гораздо сложнее предоставлять поддержк...
СТАТЬЯ [Перевод] VS 2010: Граф зависимостей и DGML
Чем ближе мы подбираемся к запуску VS2010, те больше я рассказываю про новые понравившиеся возможности, которые появились в 2010 версии. В данном посте, я расскажу о графах зависимостей и поддержке DGML. Генерация графов Я, почти, уверен, что вы присоединились к команде разработчиков, а не создавали ее. Более того, вы не получили идеальную документацию или архитектуру проектов. Так как же понять с чем мы имеем дело? Вот тут и помогут нам графы зависимостей. Генерация графа зависимостей происход...
СТАТЬЯ Data Extracting SDK: Часть 1
Data Extracting SDK написан на .NET Framework 3.5 и содержит средства для извлечения и анализа данных из текстовых файлов и web-ресурсов. Прислушиваясь к результатам опроса выкладываю первую версию Data Extracting SDK CTP (Community Technical Preview) на всеобщее обозрение. Основные возможности: Html Processing — загрузка, анализ html DOM анализ — получение ссылок, изображений, таблиц извлечение ссылок, фильтры, возможность написания своих фильтром, глубокий анализ сайта извлечение электронных а...
СТАТЬЯ Очищаем веб-страницы от информационного шума
Предыдущие мои статьи были, в основном, о теоретической части Data Mining, сегодня хочу рассказать о практическом примере, который используется в кандидаткой диссертации (в связи с этим данный пример на данном этапе развития нельзя считать полноценным работающим проектом, но прототипом его считать можно). Будем очищать веб-страницы от «информационного шума». Так в чем же проблема? Проблема заключается в том, что добрая половина веб-сайтов содержит кучу ненужной информации на страницах — так назы...